Анализ сообществ в социальной сети вконтакте с применением графов¶

Резюме¶

В этой статье мы будем анализировать участников группы с промокодами на самокат https://vk.com/promokody_samokat с применением теории графов. Для анализа взяты участники сообщества с открытыми профилями.

Структура¶

  • общие характеристики сообщества
  • распределение признаков
  • топ групп
  • выделение популярных участников
  • выделение подгрупп
    • распределение признаков
    • топ групп
  • Bonus: Боты
  • Послесловие
    • Скрипт сбора данных
    • Что можно сделать еще

Настройка среды¶

Общие характеристики сообщества¶

Представим сообщество вконтакте в виде точек и стрелочек между ними, где точка — это человек, а стрелочка — это подписка. Если два человека дружат, то это двусторонняя стрелочка.

Количество открытых профилей сообщества: 4874
Общее количество связей между участниками: 4164
Среднее количество друзей внутри сообщества: 0.8543290931473123
Медианное количество друзей внутри сообщества: 0.0

Компоненты связности - это группы пользователей, которые связаны внутри, но не связаны между собой.

Распределение размеров компонент cсвязности:
количество таких компонент
Кол-во учатников внутри компоненты
1 3852
2 109
3 18
4 11
5 5
6 3
7 1
8 2
9 1
11 1
12 1
23 1
34 1
551 1
Видим, что людей без друзей внутри сообщества 3852
Самая большая компонента включает 551 участников

Распределение признаков¶

city - город
sex - пол
byear - год рождения
occupation - занятость
occupation_type - тип занятости
relation - отношения
alcohol - отношение к алкоголю 1(резко негативное)-5(резко положительное)
inspired_by - вдохновлен
langs - языки
life_main - главное в жизни
people_main - главное в людях
political - полит. взгляды
religion - религия
smoking - отношение к курению 1(резко негативное)-5(резко положительное)
followers_count - количество подписчиков
first_name - имя
last_name - фамилия
status - статус
main_group_likes - кол-во поставленных лайков в основной группе
got_likes_from_members - кол-во лайков, полученных от участников основной группы
got_likes - общее кол-во полученных лайков

  0%|                                                                                         | 0/2052 [00:00<…
DataPrep Report
DataPrep Report Overview
Variables ≡
city sex byear occupation occupation_type relation alcohol inspired_by langs life_main people_main political religion smoking followers_count first_name last_name status main_group_likes
Interactions Correlations Missing Values

Overview

Dataset Statistics

Number of Variables 19
Number of Rows 4874
Missing Cells 47568
Missing Cells (%) 51.4%
Duplicate Rows 10
Duplicate Rows (%) 0.2%
Total Size in Memory 4.1 MB
Average Row Size in Memory 890.4 B
Variable Types
  • Categorical: 16
  • Numerical: 3

Dataset Insights

city has 1261 (25.87%) missing values Missing
byear has 2305 (47.29%) missing values Missing
occupation has 2475 (50.78%) missing values Missing
occupation_type has 2475 (50.78%) missing values Missing
relation has 2636 (54.08%) missing values Missing
alcohol has 4616 (94.71%) missing values Missing
inspired_by has 4697 (96.37%) missing values Missing
langs has 3475 (71.3%) missing values Missing
life_main has 4441 (91.12%) missing values Missing
people_main has 4423 (90.75%) missing values Missing
political has 4564 (93.64%) missing values Missing
religion has 4686 (96.14%) missing values Missing
smoking has 4446 (91.22%) missing values Missing
followers_count has 411 (8.43%) missing values Missing
status has 654 (13.42%) missing values Missing
byear is skewed Skewed
followers_count is skewed Skewed
main_group_likes is skewed Skewed
city has a high cardinality: 408 distinct values High Cardinality
occupation has a high cardinality: 1681 distinct values High Cardinality
inspired_by has a high cardinality: 162 distinct values High Cardinality
langs has a high cardinality: 80 distinct values High Cardinality
religion has a high cardinality: 51 distinct values High Cardinality
first_name has a high cardinality: 958 distinct values High Cardinality
last_name has a high cardinality: 3634 distinct values High Cardinality
status has a high cardinality: 1754 distinct values High Cardinality
alcohol has constant length 3 Constant Length
smoking has constant length 3 Constant Length
main_group_likes has 4705 (96.53%) zeros Zeros
  • 1
  • 2
  • 3

Variables


city

categorical

Approximate Distinct Count 408
Approximate Unique (%) 11.3%
Missing 1261
Missing (%) 25.9%
Memory Size 265032
  • The largest value (Moscow) is over 3.08 times larger than the second largest value (Saint Petersburg)

Length

Mean 8.2912
Standard Deviation 3.5909
Median 7
Minimum 3
Maximum 23

Sample

1st row Saint Petersburg
2nd row Moscow
3rd row Saint Petersburg
4th row Saint Petersburg
5th row Moscow

Letter

Count 29389
Lowercase Letter 25296
Space Separator 407
Uppercase Letter 4093
Dash Punctuation 131
Decimal Number 0
  • The largest value (moscow) is over 3.08 times larger than the second largest value (petersburg)

sex

categorical

Approximate Distinct Count 2
Approximate Unique (%) 0.0%
Missing 3
Missing (%) 0.1%
Memory Size 338494
  • The largest value (woman) is over 2.93 times larger than the second largest value (man)

Length

Mean 4.4917
Standard Deviation 0.8709
Median 5
Minimum 3
Maximum 5

Sample

1st row woman
2nd row woman
3rd row man
4th row woman
5th row woman

Letter

Count 21879
Lowercase Letter 21879
Space Separator 0
Uppercase Letter 0
Dash Punctuation 0
Decimal Number 0
  • The top 2 categories (woman, man) take over 50.0%
  • The largest value (woman) is over 2.93 times larger than the second largest value (man)

byear

numerical

Approximate Distinct Count 60
Approximate Unique (%) 2.3%
Missing 2305
Missing (%) 47.3%
Infinite 0
Infinite (%) 0.0%
Memory Size 41104
Mean 1991.2962
Minimum 1946
Maximum 2009
Zeros 0
Zeros (%) 0.0%
Negatives 0
Negatives (%) 0.0%
  • byear is skewed left (γ1 = -1.0363)

Quantile Statistics

Minimum 1946
5-th Percentile 1972.4
Q1 1986
Median 1992
Q3 1999
95-th Percentile 2005
Maximum 2009
Range 63
IQR 13

Descriptive Statistics

Mean 1991.2962
Standard Deviation 10.0595
Variance 101.1945
Sum 5.1156e+06
Skewness -1.0363
Kurtosis 1.8803
Coefficient of Variation 0.005052
  • byear is not normally distributed (p-value 2.56480724224409e-07)
  • byear has 68 outliers

occupation

categorical

Approximate Distinct Count 1681
Approximate Unique (%) 70.1%
Missing 2475
Missing (%) 50.8%
Memory Size 383180
  • The largest value (МГУ) is over 4.15 times larger than the second largest value (СПбГУ)

Length

Mean 18.9354
Standard Deviation 15.4131
Median 16
Minimum 1
Maximum 142

Sample

1st row СПбНИУ ИТМО
2nd row СПбНИУ ИТМО
3rd row Удаленный бухгалте...
4th row НИУД (НОУ "НеваЭкс...
5th row ВоГТУ

Letter

Count 2862
Lowercase Letter 1897
Space Separator 4811
Uppercase Letter 965
Dash Punctuation 160
Decimal Number 264
  • occupation contains many words: 2896 words

occupation_type

categorical

Approximate Distinct Count 3
Approximate Unique (%) 0.1%
Missing 2475
Missing (%) 50.8%
Memory Size 174627
  • The largest value (university) is over 1.81 times larger than the second largest value (work)

Length

Mean 7.7916
Standard Deviation 2.8384
Median 10
Minimum 4
Maximum 10

Sample

1st row university
2nd row university
3rd row work
4th row university
5th row university

Letter

Count 18692
Lowercase Letter 18692
Space Separator 0
Uppercase Letter 0
Dash Punctuation 0
Decimal Number 0
  • The largest value (university) is over 1.81 times larger than the second largest value (work)

relation

categorical

Approximate Distinct Count 9
Approximate Unique (%) 0.4%
Missing 2636
Missing (%) 54.1%
Memory Size 309352
  • The largest value (не указано) is over 2.56 times larger than the second largest value (женат/замужем)

Length

Mean 12.113
Standard Deviation 3.1899
Median 10
Minimum 10
Maximum 22

Sample

1st row женат/замужем
2nd row не указано
3rd row не указано
4th row не указано
5th row женат/замужем

Letter

Count 0
Lowercase Letter 0
Space Separator 1927
Uppercase Letter 0
Dash Punctuation 0
Decimal Number 0

alcohol

categorical

Approximate Distinct Count 5
Approximate Unique (%) 1.9%
Missing 4616
Missing (%) 94.7%
Memory Size 17544

Length

Mean 3
Standard Deviation 0
Median 3
Minimum 3
Maximum 3

Sample

1st row 1.0
2nd row 1.0
3rd row 3.0
4th row 1.0
5th row 3.0

Letter

Count 0
Lowercase Letter 0
Space Separator 0
Uppercase Letter 0
Dash Punctuation 0
Decimal Number 516
  • alcohol has words of constant length

inspired_by

categorical

Approximate Distinct Count 162
Approximate Unique (%) 91.5%
Missing 4697
Missing (%) 96.4%
Memory Size 31661
  • The largest value (Музыка) is over 2.0 times larger than the second largest value (Книги)

Length

Mean 23.6893
Standard Deviation 60.8908
Median 13
Minimum 1
Maximum 785

Sample

1st row природа, море, сол...
2nd row Dance
3rd row https://vk.com/ale...
4th row Успешные люди.
5th row Вселенная

Letter

Count 255
Lowercase Letter 238
Space Separator 456
Uppercase Letter 17
Dash Punctuation 5
Decimal Number 29

langs

categorical

Approximate Distinct Count 80
Approximate Unique (%) 5.7%
Missing 3475
Missing (%) 71.3%
Memory Size 172572
  • The largest value (Русский) is over 14.43 times larger than the second largest value (Русский,English)

Length

Mean 8.6362
Standard Deviation 5.524
Median 7
Minimum 3
Maximum 77

Sample

1st row Русский
2nd row Русский
3rd row Русский,English
4th row Русский
5th row Русский

Letter

Count 1650
Lowercase Letter 1416
Space Separator 10
Uppercase Letter 234
Dash Punctuation 0
Decimal Number 0
  • The largest value (русский) is over 14.43 times larger than the second largest value (русскийenglish)

life_main

categorical

Approximate Distinct Count 8
Approximate Unique (%) 1.8%
Missing 4441
Missing (%) 91.1%
Memory Size 62106
  • The largest value (семья и дети) is over 2.23 times larger than the second largest value (саморазвитие)

Length

Mean 13.4758
Standard Deviation 2.969
Median 12
Minimum 12
Maximum 22

Sample

1st row семья и дети
2nd row саморазвитие
3rd row саморазвитие
4th row семья и дети
5th row семья и дети

Letter

Count 0
Lowercase Letter 0
Space Separator 637
Uppercase Letter 0
Dash Punctuation 0
Decimal Number 0

people_main

categorical

Approximate Distinct Count 6
Approximate Unique (%) 1.3%
Missing 4423
Missing (%) 90.8%
Memory Size 73419
  • The largest value (доброта и честность) is over 3.72 times larger than the second largest value (юмор и жизнелюбие)

Length

Mean 18.4479
Standard Deviation 0.8712
Median 19
Minimum 17
Maximum 19

Sample

1st row доброта и честност...
2nd row доброта и честност...
3rd row доброта и честност...
4th row юмор и жизнелюбие
5th row доброта и честност...

Letter

Count 0
Lowercase Letter 0
Space Separator 902
Uppercase Letter 0
Dash Punctuation 0
Decimal Number 0
  • The largest value (и) is over 1.62 times larger than the second largest value (доброта)

political

categorical

Approximate Distinct Count 9
Approximate Unique (%) 2.9%
Missing 4564
Missing (%) 93.6%
Memory Size 41882
  • The largest value (умеренные) is over 5.11 times larger than the second largest value (либеральные)

Length

Mean 11.0258
Standard Deviation 2.7222
Median 9
Minimum 9
Maximum 20

Sample

1st row умеренные
2nd row умеренные
3rd row индифферентные
4th row индифферентные
5th row умеренные

Letter

Count 0
Lowercase Letter 0
Space Separator 0
Uppercase Letter 0
Dash Punctuation 0
Decimal Number 0
  • The largest value (умеренные) is over 5.11 times larger than the second largest value (либеральные)

religion

categorical

Approximate Distinct Count 51
Approximate Unique (%) 27.1%
Missing 4686
Missing (%) 96.1%
Memory Size 26529
  • The largest value (Православие) is over 9.73 times larger than the second largest value (Ислам)

Length

Mean 13.4096
Standard Deviation 12.918
Median 11
Minimum 3
Maximum 94

Sample

1st row Православие
2nd row Deus Ex...
3rd row Он есть
4th row христианство
5th row Православие

Letter

Count 62
Lowercase Letter 51
Space Separator 117
Uppercase Letter 11
Dash Punctuation 7
Decimal Number 41
  • The largest value (православие) is over 9.73 times larger than the second largest value (ислам)

smoking

categorical

Approximate Distinct Count 5
Approximate Unique (%) 1.2%
Missing 4446
Missing (%) 91.2%
Memory Size 29104

Length

Mean 3
Standard Deviation 0
Median 3
Minimum 3
Maximum 3

Sample

1st row 1.0
2nd row 1.0
3rd row 2.0
4th row 1.0
5th row 2.0

Letter

Count 0
Lowercase Letter 0
Space Separator 0
Uppercase Letter 0
Dash Punctuation 0
Decimal Number 856
  • smoking has words of constant length

followers_count

numerical

Approximate Distinct Count 1518
Approximate Unique (%) 34.0%
Missing 411
Missing (%) 8.4%
Infinite 0
Infinite (%) 0.0%
Memory Size 71408
Mean 703.2462
Minimum 0
Maximum 40313
Zeros 33
Zeros (%) 0.7%
Negatives 0
Negatives (%) 0.0%
  • followers_count is skewed right (γ1 = 9.1772)

Quantile Statistics

Minimum 0
5-th Percentile 20.1
Q1 152
Median 348
Q3 716
95-th Percentile 2388.2
Maximum 40313
Range 40313
IQR 564

Descriptive Statistics

Mean 703.2462
Standard Deviation 1394.7577
Variance 1.9453e+06
Sum 3.1386e+06
Skewness 9.1772
Kurtosis 171.4501
Coefficient of Variation 1.9833
  • followers_count is not normally distributed (p-value 1.775685349952025e-24)
  • followers_count has 392 outliers

first_name

categorical

Approximate Distinct Count 958
Approximate Unique (%) 19.7%
Missing 0
Missing (%) 0.0%
Memory Size 347332

Length

Mean 6.0835
Standard Deviation 1.6867
Median 6
Minimum 2
Maximum 16

Sample

1st row Zhannet
2nd row Irina
3rd row Ivan
4th row Mari
5th row Yulia

Letter

Count 29552
Lowercase Letter 24174
Space Separator 0
Uppercase Letter 5378
Dash Punctuation 16
Decimal Number 1

last_name

categorical

Approximate Distinct Count 3634
Approximate Unique (%) 74.6%
Missing 0
Missing (%) 0.0%
Memory Size 357714
  • The largest value () is over 2.24 times larger than the second largest value (Ivanova)

Length

Mean 8.1381
Standard Deviation 2.5046
Median 8
Minimum 0
Maximum 25

Sample

1st row Venzhega
2nd row From
3rd row Semchenkov
4th row Zhukova
5th row Shiryaeva

Letter

Count 39496
Lowercase Letter 34688
Space Separator 2
Uppercase Letter 4808
Dash Punctuation 43
Decimal Number 1
  • last_name contains many words: 3630 words

status

categorical

Approximate Distinct Count 1754
Approximate Unique (%) 41.6%
Missing 654
Missing (%) 13.4%
Memory Size 636327
  • The largest value () is over 299.62 times larger than the second largest value (❤)

Length

Mean 18.0031
Standard Deviation 31.6136
Median 0
Minimum 0
Maximum 140

Sample

1st row ❤
2nd row
3rd row 🌍☀⛅🦆🚴
4th row
5th row

Letter

Count 7536
Lowercase Letter 7015
Space Separator 9913
Uppercase Letter 521
Dash Punctuation 341
Decimal Number 1530
  • status contains many words: 5052 words

main_group_likes

numerical

Approximate Distinct Count 12
Approximate Unique (%) 0.2%
Missing 0
Missing (%) 0.0%
Infinite 0
Infinite (%) 0.0%
Memory Size 77984
Mean 0.07694
Minimum 0
Maximum 67
Zeros 4705
Zeros (%) 96.5%
Negatives 0
Negatives (%) 0.0%
  • main_group_likes is skewed right (γ1 = 44.6484)

Quantile Statistics

Minimum 0
5-th Percentile 0
Q1 0
Median 0
Q3 0
95-th Percentile 0
Maximum 67
Range 67
IQR 0

Descriptive Statistics

Mean 0.07694
Standard Deviation 1.2452
Variance 1.5506
Sum 375
Skewness 44.6484
Kurtosis 2200.2706
Coefficient of Variation 16.1848
  • main_group_likes is not normally distributed (p-value 4.233399939421321e-25)
  • main_group_likes has 169 outliers

Interactions

Correlations

Missing Values

Report generated with DataPrep

Топ групп¶

Группы, на которые подписаны наибольшее количество пользователей

кол-во подписанных участников
Название группы
Промокод Самокат на первый и повторный заказ 4406
Сарказм 1026
MDK 744
Психология 707
Леонардо Дайвинчик 659
Рецепты 650
Проверка мошенников | Доггеров | Прогнозистов 632
Новинки Музыки | Новая Музыка 2023 617
Психология отношений 613
Лайфхакерша 586
КиноКайф - Лучшие фильмы 567
Киномания - Лучшие фильмы 546
Я тебя хочу 533
Киномания ► Новинки кино 525
ВКонтакте 506
Идеи дизайна интерьера 496
Хитрости жизни 482
Наука и Техника 480
AliExpress 471
Словарный запас 467
Палата №6 465
Женские секреты 449
Cook Good - лучшие рецепты 436
Самокат 415
Фабрика идей 410
585 Золотой 408
Private community 408
New Life | Новая Жизнь 398
Литература | Великие поэты 397
Стихи Антона Сергеева 389

Выделение популярных участников¶

Выведем список самых популярных людей внутри сообщества на основе eigenvector_centrality:

first_name occupation followers_count
0 Y. NaN 790.0
1 T. NaN 841.0
2 M. NaN 870.0
3 E. NaN 739.0
4 A. NaN 934.0
5 L. NaN 921.0
6 A. NaN 985.0
7 A. NaN 810.0
8 V. NaN 995.0
9 E. NaN 929.0
10 A. NaN 715.0
11 N. NaN 949.0
12 S. NaN 917.0
13 D. NaN 621.0
14 A. NaN 690.0
15 O. NaN 839.0
16 V. NaN 947.0
17 M. NaN 865.0
18 M. NaN 585.0
19 E. NaN 764.0
20 A. NaN 628.0
21 E. NaN 857.0
22 A. NaN 780.0
23 A. NaN 666.0
24 L. NaN 911.0
25 L. NaN 760.0
26 V. NaN 697.0
27 O. NaN 569.0
28 L. NaN 622.0
29 L. NaN 772.0

Выделение подгрупп¶

Для выделения подгрупп возьмём самую большую компоненту. С помощью магии выделяем подгруппы, в которых связь между людьми сильнее по сравнению с остальными людьми.

Плотность графа - количество связей/ количество связей если все со всеми дружат.
Например, если все дружат со всеми, то плотность=1, если никто ни с кем не дружит, плотность=0

Выведем список самых больших подгрупп:

sett размер медианное кол-во друзей плотность
0 {714187520, 25874434, 708491532, 321477389, 42... 70 1.0 0.022567
1 {579950592, 709048837, 453505032, 506446602, 7... 69 1.0 0.028559
2 {269204227, 269893126, 267964172, 267410958, 2... 55 36.0 0.550842
3 {253662915, 265937411, 254812164, 267285264, 2... 22 11.0 0.329004
4 {264082883, 253977348, 244014858, 245287119, 8... 18 11.0 0.490196
5 {269282593, 266545898, 265667377, 146388562, 2... 10 3.0 0.333333
6 {201814432, 271900290, 272000839, 199369128, 2... 10 2.5 0.333333
7 {65542116, 224710886, 270156583, 270986022, 13... 10 1.0 0.222222
8 {442334657, 15001091, 713111014, 233879410, 70... 8 1.0 0.250000
9 {151434181, 640760970, 673463277, 367070359, 6... 8 1.0 0.214286

Распределение признаков¶

Сравним 5 самых больших подгрупп

DataPrep.EDA Report
Difference Overview
0_subgroup 1_subgroup 2_subgroup 3_subgroup 4_subgroup
Number of Variables 20 20 20 20 20
Number of Rows 70 69 55 22 18
Missing Cells 749 764 502 164 140
Missing Cells (%) 53.5% 55.4% 45.6% 37.3% 38.9%
Duplicate Rows 0 0 0 0 0
Duplicate Rows (%) 0.0% 0.0% 0.0% 0.0% 0.0%
Total Size in Memory 13.5 KB 13.4 KB 11.1 KB 4.2 KB 3.5 KB
Average Row Size in Memory 13.5 KB 13.3 KB 11.0 KB 4.1 KB 3.5 KB
Variable Types
  • Categorical: 18
  • Numerical: 2
  • Categorical: 18
  • Numerical: 2
  • Categorical: 18
  • Numerical: 2
  • Categorical: 19
  • Numerical: 1
  • Categorical: 18
  • Numerical: 2
0_subgroup
1_subgroup
2_subgroup
3_subgroup
4_subgroup

Number of plots per page:

city
sex
byear
occupation
occupation_type
relation
alcohol
inspired_by
langs
life_main
people_main
political
religion
smoking
followers_count
first_name
last_name
status
main_group_likes
subgroup

Топ подпсиок¶

Теперь посмотрим топ подписок в разных подгруппах

Общих групп: 1 
Общие группы: {'Промокод Самокат на первый и повторный заказ'}
0 1 2 3 4
Топ групп\Номер подгруппы
0 Проверка мошенников | Доггеров | Прогнозистов Проверка мошенников | Доггеров | Прогнозистов Private community MACADAMIA Natural Oil xxx
1 Бесплатные стикеры | Раздача Стикеров | Конкурсы Пудровые брови / @by_julia_surogina Мастер и модель Стерлитамак Private community Private community
2 Договорные матчи | Точный счет Ледники Лаго-Наки – настоящая ледниковая вода Polar Pen Школа макияжа "BACKSTAGE" Искренность Курс для осознанных родителей
3 Договорные матчи | Точный счет | Прогнозы Estetica Club Ищу / Крым Стихи Антона Сергеева Ищу / Крым
4 Прогнозы на спорт | Договорные матчи GEEK POWER MACADAMIA Natural Oil aprenoir.ru ИнформПолит.ru
5 Бесплатные договорные матчи Роллберри | Суши и роллы Краснодар _flodesign_ Мыльные розы|Санкт-Петербург Ателье фото и видеографии Натальи Коротковой МСК Рекламное Агентство AriZona в Подольске |SMM,SEO
6 Пpoгнoзы нa спoрт | Договорные матчи MOSSA ATELIER – люксовая одежда под заказ Женские Кроссовки F U F A I K A | SHOP Almida2 finance inc
7 Работа Ростов-на-Дону Русский язык, ЕГЭ. Репетитор Полина Кузнецова Бетонный завод Мостоотряд 26 семейный фотограф спб Новосибирск
8 Договорные матчи | Экспрессы | IRON MONEY Джентльмены Удачи | Ресторан в Краснодаре Смешные коты / картинки котов PRIZMA – элитные украшения с камнями Swarovski BODYBUILDING SHOP | Спортивное питание Казань
9 Работа Пермь МАРУСИН ПРЯНИК – имбирные пряники ручной работы САНКТ-ПЕТЕРБУРГ/Доска бесплатных объявлений Ищу / Крым Фото
10 Конкурсы | Бесплатно за репост | Деньги Tiffany Laser Лазерная эпиляция СПб Снять квартиру в Москве. БЕЗ комиссии. Подслушано Ростов Великий Насосы | Фильтры | Арматура | в Липецке
11 Работа Челябинск Договорные матчи | Точный счет EGEFOX | Русский язык ЕГЭ | Итоговое сочинение Трансформационный блог Марии Бойцовой S P A C E W A L K E R
12 Работа Омск НАШИ НОВОСТИ Первая Советская Семейная Школа Такерама, керамика, сувениры, подарки, статуэтки Подарибуз - маркет-подарков
13 X-Project - Договорные матчи | Точный счет Бесплатные стикеры | Раздача Стикеров | Конкурсы Свадебные аксессуары и пригласительные НСК Работа и Подработка | в Минске Sand by itself
14 Работа Уфа XFIT Центральный Studio | Краснодар SLASE Records Бетонный завод Мостоотряд 26 Покрасочные камеры купить окрасочная камера цена
15 Работа Новосибирск Блог Романа Клименко | Деньги онлайн ИТ индустрия. IT-мания Радугакидс | Radugakids: скидки, кэшбэк, акции Бетонный завод Мостоотряд 26
16 Работа Ульяновск Пошли гулять | Знакомства Кострома One Service Group Косметика GUAM Журнал о бизнесе за рубежом "БизнесТаймс"
17 Работа Краснодар ТАБ • ТАБ — сеть магазинов #КРЫМ #МОРЕ #ОТДЫХ #ВИТИНО BODYBUILDING SHOP | Спортивное питание Казань Барбершоп
18 КУРСОВЫЕ ДИПЛОМЫ РЕФЕРАТЫ БЕСПЛАТНЫЕ ОБЪЯВЛЕНИЯ ПИТЕР THE OLD BOYS loopyloops.ru Заборы, строительство, ремонт
19 Тотошка - лакомства для собак в Самаре LAM – Изготовление дизайнерских зеркал и мебели Искусство & Арт дайджест Женские Кроссовки Женские Кроссовки
20 Работа Нижний Новгород N/W Legit Check Авторынок "Северо-Запад" (Малая Вишера) Благотворительный фонд ТЕРРИТОРИЯ ДОБРА ДАГЕСТАН Фотограф Николай Денисов
21 Микрозайм Таргет. Продвижение. Реклама. Мини-отель Крыша Аренда Посуточно Харьков EUGENE PERMA Шоколадный фонтан в Омске. Компания ШОКО-ЛАД
22 Воронеж | Ищу модель, мастера Анна Сорокина • рунолог-практик Сегодня в Красноярске Подарибуз - маркет-подарков КопиЦентр Великий Новгород ● Печать фото А0-А6 ●
23 Железнодорожный Интернет магазин женской одежды "LYCHEE ROOM" Сумки 21 века ★ ПУТЬ ФИНАНСИСТА ➥ FOREX | ФОРЕКС Фотограф Вьетнам-Нячанг | Свадебные Церемонии

Легко заметить, что сообществ, которых нет в нулевой и четвертой подгруппе, часто встречаются в оставшихся.

Сравним между собой 3 и 4 подгруппы.

Общих групп: 16 
Общие группы: {'Благотворительный фонд ТЕРРИТОРИЯ ДОБРА ДАГЕСТАН', 'Ищу / Крым', 'Женские Кроссовки', 'Барбершоп', 'Pascal & Co', 'Электронные сигареты | VAPE | (SIGAMEN.RU)', 'IT BLOG | Блог Бакланова Дмитрия', 'Промокод Самокат на первый и повторный заказ', 'Искренность Курс для осознанных родителей', 'Подарибуз - маркет-подарков', 'Фотограф Николай Денисов', 'Private community', 'Бетонный завод Мостоотряд 26', ',jh9o9ji', 'Журнал о бизнесе за рубежом "БизнесТаймс"', 'BODYBUILDING SHOP | Спортивное питание Казань'}
3 4
Топ групп\Номер подгруппы
0 MACADAMIA Natural Oil xxx
1 Школа макияжа "BACKSTAGE" ИнформПолит.ru
2 Стихи Антона Сергеева Рекламное Агентство AriZona в Подольске |SMM,SEO
3 aprenoir.ru Almida2 finance inc
4 Ателье фото и видеографии Натальи Коротковой МСК Новосибирск
5 F U F A I K A | SHOP Фото
6 семейный фотограф спб Насосы | Фильтры | Арматура | в Липецке
7 PRIZMA – элитные украшения с камнями Swarovski S P A C E W A L K E R
8 Подслушано Ростов Великий Sand by itself
9 Трансформационный блог Марии Бойцовой Покрасочные камеры купить окрасочная камера цена
10 Такерама, керамика, сувениры, подарки, статуэтки Заборы, строительство, ремонт
11 Работа и Подработка | в Минске Шоколадный фонтан в Омске. Компания ШОКО-ЛАД
12 Радугакидс | Radugakids: скидки, кэшбэк, акции КопиЦентр Великий Новгород ● Печать фото А0-А6 ●
13 Косметика GUAM Фотограф Вьетнам-Нячанг | Свадебные Церемонии
14 loopyloops.ru Follow Me
15 EUGENE PERMA Бесплатные приложения для Android
16 ПУТЬ ФИНАНСИСТА ➥ FOREX | ФОРЕКС Аноним передаст
17 Скидки, купоны, акции. Все бренды. Эксклюзивная детская мебель - KidsGoodPlay
18 Косметика CHRISTINA Голосование за лучшую аватарку
19 Клуб любящих мам. ツ ヅ Мурашки - Мы знаем о Развлечениях Все!
20 NUR Объявления Куплю Продам Обменяю Барахолка Mr. Style - классическая мужская одежда
21 House People Music BritishWave.ru
22 МАКИЯЖ|ПРИЧЕСКИ|Стилист~Наталья Бутко~ Николаев Купить питомца | щенка | котёнка | объявления
23 Я - женщина | Статусы Строительный инструмент ОПТОМ
24 Маникюр. Ногти. Красота N E F A R I A N
25 Рыбалка. Клуб Рыбаков. Club of fishermen Куплю-Продам дачу Ленобласть

Bonus: Боты¶

Выведем одну из компонент связности и посчитаем плотность:

Плотность графа: 0.5508417508417508

Плотность графа довольно таки высокая. Кажется - это очень дружная и обособленная компания, либо боты.

Если это действительно боты, то вряд ли прям все, но большая часть.

Давайте посмотрим на какие группы они подписаны:

кол-во
Название группы
Private community 94
Мастер и модель Стерлитамак 84
Polar Pen 62
Ищу / Крым 55
MACADAMIA Natural Oil 55
Промокод Самокат на первый и повторный заказ 55
_flodesign_ Мыльные розы|Санкт-Петербург 54
Смешные коты / картинки котов 54
Женские Кроссовки 54
Бетонный завод Мостоотряд 26 54
Снять квартиру в Москве. БЕЗ комиссии. 53
САНКТ-ПЕТЕРБУРГ/Доска бесплатных объявлений 53
#КРЫМ #МОРЕ #ОТДЫХ #ВИТИНО 52
Комиссионный магазин "КУПИ-ПРОДАЙ". Биробиджан. 52
Видеограф Антон Бочаров 52
Сегодня в Красноярске 52
Авторынок "Северо-Запад" (Малая Вишера) 52
EGEFOX | Русский язык ЕГЭ | Итоговое сочинение 52
One Service Group 52
ИТ индустрия. IT-мания 52
Сумки 21 века ★ 52
Мини-отель Крыша Аренда Посуточно Харьков 52
Могу Себе Позволить: Санкт - Петербург | МСП 52
Первая Советская Семейная Школа 52
I love ♥ Stickers! 52
THE OLD BOYS 52
Коты - это смысл нашей жизни 52
Свадебные аксессуары и пригласительные НСК 52
МАЙОНЕЗ | ◄ ROCK / РОК ► 52
Крыши Петербурга 52
Туристическое агентство "РИО-ЛАЙН"&Страхование 52
Прогулки|Экскурсии по крышам|Свидания на крышах 52
SLASE Records 52
Высшая математика, теория вероятностей и др. 52
Детские развивающие книжки 52
Новочеркасск Сити 52
Energy Beting | Прогнозы на Киберспорт 52
Прогнозы на спорт | Ставки LIVE 52
Искусство & Арт дайджест 52
СВЯТОСЛАВ ХРАБРЫЙ. АРБ В ПЕТЕРБУРГЕ 52
Patrikman Мужские костюмы Москва 51
Подслушано Новосибирск | Квесты 51
Парфюмерия Ставрополь 51
Москва Online 51
Выставка "СВАДЕБНЫЙ КРЫМ" 51

Послесловие¶

Скрипт сбора данных -¶

С помощью данного скрипта можно спарсить сообщество в 25к примерно за неделю, 20к будут с открытыми профилями. Для работы скрипта нужно ссылка на группу вк. Скрипт соберет информацию об участниках. Это может быть и сообщество, и мероприятие.
Какие данные мы получаем:

  • основную информацию об участниках сообщества: пол, имя, город, дата рождения, университет, место работы и т.д. (здесь много пропусков, т.к. не все указывают все, но например город есть почти у всех)
  • кто с кем дружит, кто на кого подписан
  • подписки участников на группы, общую информацию о топ-n группах(тематика, название...)
  • последние 100 постов участников, лайки на них
  • последние 100 постов сообщества вк, лайки к ним

Что можно сделать еще¶

  • разбить тексты постов людей на кластеры и посмотреть самы популярные, самые популярные внутри сообщества(инструменты: carrot2, rubert + sklearn)
  • найти тональность постов(положительная, нейтральная, негативная), посмотреть аггрегированную тональность кластеров текстов, сравнить все это между несколькими подгруппами людей
  • выбрать другой алгоритм разбиения участников на подгруппы, который сможет учитвать не только связи между участниками, но и другими характеристиками(node2vec + sklearn), или просто другой алгоритм(в посте испольлзуется louvain, можно применить Leiden, Walktrap и еще десятки из библиотеки cdlib)
  • сделать предсказание ребер на основе общих друзей например, 2 учаснтика сообщества не дружат между собой, но у них 30 общих друзей, можно посчитать вероятность того, что они дружат и положить это значение в вес ребра
  • сделать граф, основанный на лайках, а не дружбе. Может даже совместить, еще и вк группы засунуть, но интерпретировать будет сложнее.
  • собрать информацию о группах не по подпискам а по лайкам, но это займет времени в десятки раз больше, вероятно